En aquest estudi, es realitzarà l’anàlisi de l’entrada turística a Espanya des de l’any 2000 fins a l’actualitat. S’analitzaran les tendències tant generals com estacionals, així com la presència de valors atípics que puguin dificultar-ne l’examinació. L’objectiu de tot plegat és arribar a proposar un model vàlid per poder predir amb la màxima precisió l’entrada turística del proper any.
FONT DE DADES: Ministeri d’Indústria, Comerç i Turisme. https://sedeaplicaciones.minetur.gob.es/Badase/BadasiUI/lstSeriesInformesPostBack.aspx U64A2: FRONTUR ENTRADA DE TURISTAS
Un cop feta la representació de les dades, s’observa una clara tendència variant, generalment creixent al llarg dels anys. És menys pronunciada entre els anys 2000 i 2010, fins i tot amb una petita baixada entre els anys 2007 i 2010, i sembla que es pronuncia a partir de l’any 2011.
Pel que fa a la variància, s’observa que va augmentant a mesura que es pronuncia la tendència creixent. És a dir, en els anys 2000-2010, la variància és menor que en els anys 2011-2019, on el creixement augmenta.
Per poder analitzar millor les dades, es realitza la seva descomposició en les seves components bàsiques, és a dir, el model aditiu de la sèrie:
\[ X_t = T_t + S_t + C_t + \omega_t \] on: * \(T_t\) és la tendència de la sèrie a llarg termini. * \(S_t\) és el seasonal de la sèrie (patró repetit periòdicament amb període constant). * \(C_t\) és el cicle de la sèrie (patró repetit periòdicament amb període no constant). Aquesta part no surt representada en la descomposició. * \(\omega_t\) és el soroll aleatòri.
S’observa, tal i com s’havia comentat anteriorment, la clara tendència creixent de la sèrie, amb un creixement menys pronunciat a l’inici, una petita baixada entre els anys 20017 i 2010 i una pujada més pronunciada més cap a l’actualitat.
Pel que fa al patró estacional, observem que durant els mesos d’estiu, el número de turistes a Espanya augmenta molt considerablement. Aquest fet que no crida l’atenció, ja que és durant els mesos d’estiu quan més vacances s’agafa la gent i més aprofiten per venir a les costes espanyoles. Durant els mesos de tardor-hivern, observem que el número de turistes cau en picat.
La clara tendència creixent de la mitjana i la variància a mesura que t augmenta ens fa rebutjar la hipòtesi de l’estacionarietat en les dades.
A continuació s’analitzarà la necessitat de realitzar una sèrie de transformacions amb l’objectiu d’aconseguir estacionaritat en la nostra sèrie temporal i poder aplicar la teoria dels models ARIMA per a sèries estacionàries.
En primer lloc, s’estudiarà si es pot considerar que la variància de les dades sigui constant en el temps. Es comprova amb un plot de la variància front la mitjana i un boxplot de les dades cada 12 mesos (que és la freqüència de les nostres dades) que la variància, efectivament, no és constant.
Tal i com s’havia observat a simple vista, la variància augmenta a mesura que agumenta la mitja. Per tant, no podem assumir variància constant. Amb el boxplot es confirma aquesta hipòtesis.
Així doncs, es procedeix a realitzar una transformació logarítmica ( amb \(\lambda = 0\)) de la sèrie per homogeneïtzar la variància. Els resultats obtinguts són els següents:
Veiem que encara hi ha una tendència creixent causada per un valor anormalment gran, si l’eliminem i tornem a fer el plot veiem que, en efecte, s’homogenitza la variància tal i com volíem.
Ara la variància ja es pot considerar constant.
En segon lloc, s’estudiarà l’existència d’un patró estacional en les nostres dades. En cas que hi sigui present, es realitzarà una diferenciació d’ordre 12 per eliminar aquest patró, és a dir, \[ W_t := X_t - X_{t-12} = (1 - B^{12})X_t \] on \(B\) és el backshift operator. Es realitza un monthplot per comprovar-ne l’existència.
Tal i com s’havia comenta, s’observa una clara pujada de la presència de turistes durant els mesos d’estiu i una baixada en picat en l’entrada de l’hivern/tardor. Així doncs, és necessària una diferenciació d’ordre 12 per eliminar aquest patró.
S’observa que amb una diferenciació d’ordre 12 s’ha eliminat el patró estacional.
Ara bé, la mitjana de la sèrie encara no és constant.
Per últim, es vol aconseguir que la sèrie tingui mitjana constant igual (i si és possible igual a 0) per a poder considerar definitivament la sèrie com un procés estacionari. Per aconseguir-ho, es realitzaran diferenciacions regulars de la sèrie fins que s’obtingui el resultat desitjat
\[ W_t = X_t - X_{t-1} = (1 - B)X_t \]
Es realitza la primera diferenciació. Els valors de mitjana i variància aconseguits són els seguents:
## [1] "Mean of d1d12logserie: -0.0003272784840803"
## [1] "Variance of d1d12logserie: 0.00426696529209441"
Com es pot observar, la mitjana del procés diferenciat regularment un cop es pot arribar a considerar constant i nula.
Es mira de diferenciar un segon cop per veure si la variància augmenta i, per tant, hi ha overdifferentiation.
S’observa que la variància augmenta. Així que ens quedarem amb la primera sèrie.
En definitiva, la sèrie transformada pel logaritme, diferenciada un cop i amb una diferenciació d’ordre 12 per eliminar el patró estacional (\(\texttt{d1d12logserie}\)) és un procés estacionari de mitjana 0.
Tot seguit, es realitza un anàlisi de les funcions d’AutoCorrelació i de Correlació Parcial de la sèrie transformada, és a dir, de la sèrie estacionària.
En relació a la part regular de la sèrie, en la funció d’AutoCorrelació (ACF) s’observa un decreixement exponencial alternat en tots els valors. S’observen també valors fora de la banda de confiança en retards llunyans, però poden ser assignats a la aleatorietat del cas 5%. Per tant, en aquest cas, es proposaria \(q=0\) pel decreixement exponencial.
En tot cas, si es volgués mirar d’incloure el primer valor que sobresurt més que la resta, es podria considerar també \(q=1\).
Pel que fa a la funció de Correlació Parcial (PACF) s’observa que els dos primers valors sobresurten més significativament que la resta. La resta de valors es poden considerar nuls, ja que o bé estan dintre de l’interval de confiança, o bé es poden assignar al cas d’aleatorietat del 5%. Per tant, per la part regular, es proposaria \(p=2\).
Donat que s’ha realitzat diferenciació un cop, es té que \(d=1\). Per tant, els models proposats per la part regular serien \(AR(2)\) o, en tot cas, \(ARMA(2,1)\) sobre la sèrie transformada regular.
En relació a la part estacional de la sèrie, en la funció d’AutoCorrelació (ACF) s’observa que el primer valor es força significatiu, però també ho són el tercer, el quart i el cinquè, sobretot el quart. Donat que volem intentar proposar un model simplificat, es proposa \(Q=0\).
Pel que fa a la funció de Correlació Parcial (PACF) s’observa que sobresurt el primer valor una mica i també sobresurten el tercer i el quart valor lleugerament. Ara bé, no sobresurten de manera tant significativa com en el cas dels valors del ACF i, per tant, podem assignar-ho al cas d’aleatorietat del 5%.
Per tant, en aquest cas, es proposaria \(P=1\). En tot cas, es podria proposar \(P=4\) per mirar d’incluir aquests valors que sobresurten de la banda de confiança.
Donat que s’ha realitzat una diferenciació d’ordre 12 per eliminar el patró estacional, es té que \(D=1\). Per tant, el model proposat per la part regular seria un \(AR(1)\)
En conclusió, es proposen per la sèrie diferenciada els models estacionals:
I per la sèrie original, tenint en compte les diferenciacions, es proposen:
A continuació, s’estimen els coeficients dels dos models proposats i es mira que tots siguin significatius. Per mirar-ho, es realitza el test següent (suposant que estem davant d’un model MA:
\[ H_0: \theta_i = 0 \] \[ H_1: \theta_i \neq 0\] amb l’estadístic \[ \hat{t} = \frac{\hat{\theta}_i}{\text{se}(\hat{\theta}_i)} \sim t-\text{student}_{T-k}\] on \(k\) és el nombre total de paràmetres i \(T = 12\) és el període. Ara bé, a la pràctica es diu que un coeficient és significant si \(|\hat{t}| > 2\).
En primer lloc, s’estimen els coeficients dels models proposats, amb intercept i sense.
## ######## ARIMA(2,1,0)(0,1,0) ########
##
## Significance of the coefficients:
## ar1 ar2 sar1 intercept
## TRUE TRUE TRUE FALSE
##
## Significance of the coefficients:
## ar1 ar2 sar1
## TRUE TRUE TRUE
## ######## ARIMA(2,1,0)(4,1,0) ########
##
## Significance of the coefficients:
## ar1 ar2 sar1 sar2 sar3 sar4 intercept
## TRUE TRUE TRUE TRUE FALSE TRUE FALSE
##
## Significance of the coefficients:
## ar1 ar2 sar1 sar2 sar3 sar4
## TRUE TRUE TRUE TRUE FALSE TRUE
## ######## ARIMA(2,1,1)(0,1,0) ########
##
## Significance of the coefficients:
## ar1 ar2 ma1 sar1 intercept
## FALSE FALSE TRUE TRUE FALSE
##
## Significance of the coefficients:
## ar1 ar2 ma1 sar1
## FALSE FALSE TRUE TRUE
## ######## ARIMA(2,1,1)(4,1,0) ########
##
## Significance of the coefficients:
## ar1 ar2 ma1 sar1 sar2 sar3 sar4
## TRUE TRUE FALSE TRUE TRUE FALSE TRUE
## intercept
## FALSE
##
## Significance of the coefficients:
## ar1 ar2 ma1 sar1 sar2 sar3 sar4
## TRUE TRUE FALSE TRUE TRUE FALSE TRUE
S’observa que, en cap dels casos, l’intercept no és significatiu i, per tant, es descarten els models amb aquest paràmetre.
En termes de loglikelihood i de AIC, el model que sembla el millor és el segon model \(ARIMA(2,1,0)(4,1,0)_{12}\), que és el millor tant en AIC com en loglikelihood.
Dels altres dos models, donat que el \(ARIMA(2,1,0)(1,1,0)_{12}\) té tots els coeficients significatus, es descarta el model \(ARIMA(2,1,1)(1,1,0)_{12}\). Tot i tenir una mica millor la loglikelihood.
Així doncs, a-priori, s’escolliria el primer model \(ARIMA(2,1,0)(4,1,0)_{12}\) com a millor model. Tot i així, es realitzarà la validació i la predicció dels dos models escollits en aquest pas.
Tot seguit, es realitzarà la validació dels dos models proposat. En el procés de validació es realitzarà un anàlisi dels residus (\(Z_t\)) dels models, es comprovarà que aquests siguin estacionaris i invertibles, es verificarà la seva estabilitat i s’evaluarà la seva capacitat de previsió.
Així doncs, en primer lloc, s’estudiaràn els residus del model i es comprovaran els següents aspectes:
Per comprovar l’homogeneïtat de la variància dels residus, s’analitzen el plot dels mateixos residus, el plot de l’arrel quadrada del seu valor absolut i les funcions ACF i PACF del seu quadrat.
En el cas del primer model (\(\texttt{mod.1}\)) no s’observa cap tipus de patró (ni creixent ni decreixent) en el plot dels residus o en el plot de l’arrel quadrada del seu valor absolut. A més, en l’ACF i el PACF del quadrat dels residus tots els valors estan dintre de la banda de confiança i, per tant, els podem considerar nuls.
En el cas del segon model (\(\texttt{mod.2}\)), es poden extreure les mateixes conclusions que en el primer model i, per tant, també es pot assumir homogeneïtat de variància residual.
Per comprovar la normalitat dels residus dels models proposats s’estudiarà el Q-Q plot, l’histograma dels residus amb la normal que s’hauria de seguir sobreposada i es realitzarà el test de Sharipo-Wilks.
##
## Shapiro-Wilk normality test
##
## data: resid(model)
## W = 0.96408, p-value = 1.713e-05
En el cas del model \(\texttt{mod.1}\), s’observa en el Q-Q plot que els quartils es situen sobre la línia dels quartils teòrics i que l’histograma s’ajusta a la distribució normal a la que s’hauria d’ajustar (tot i tenir les dues barres més grans una mica per fora de la corba normal). A més, el p-value del test de Sharipo-Wilks és \(1.713 \times 10^{-05}\), menor que 0.05 i, per tant, es pot assumir la hipòtesi de normalitat en els residus.
##
## Shapiro-Wilk normality test
##
## data: resid(model)
## W = 0.96197, p-value = 9.536e-06
En el cas del model \(\texttt{mod.2}\), les conclusions que s’extreuen són les mateixes. En aquest cas, el p-value és de \(9.53 \times 10^{-06}\). Per tant, també assumim normalitat en aquest cas. En l’histograma, en aquest cas, només hi ha una barra que sobresurt de la corba normal.
Per comprovar la independència en els residus buscarem que els coeficients de l’autocovariància \(\rho(k) = 0\), \(\forall k > 0\). S’estudiarà el ACF i el PACF dels residus i es realitzarà el test de Ljung-Box.
Pel que fa al primer model, en primer lloc observem que les funcions ACF i PACF prenen valors pràcticament iguals (menys alguns retards llunyans que en un són positius i en l’altre negatius, però estan dins la banda de confiança en els dos casos), cosa que ja fa intuïr que es complirà la independència.
Els residus estandaritzats prenen valors dintre de la franja de (-2,2), la gran majoria, que és el comportament esperat. Ara bé, els p-values del test Ljung-Box tenen valors superiors a 0.05 en els primers retards però en els retards llunyans no es pot assumir la independència. Tot i així, donat que en els primers retards sí que es té independència, s’assumeix aquesta hipòtesi pel model.
En el segon model, en canvi, observem més diferències entre les gràfiques del ACF i el PACF. Ara bé, en aquest cas els p-values del test de Ljung-Box estan tots per sobre de 0.05 i, per tant, podem assumir independència en tots els residus.
Per analitzar l’estacionaritat i la invertibilitat dels models proposats, s’expresaran els models com a models \(AR(\infty)\) i \(MA(\infty)\):
\[ (1 - \phi_1B - \cdots - \phi_pB^p)X_t = (1 + \theta_1B + \cdots + \theta_qB^q)Z_t \] \[ AR(\infty): \quad \frac{1 - \phi_1B - \cdots - \phi_pB^p}{1 + \theta_1B + \cdots + \theta_qB^q}X_t = (1 - \pi_1B - \pi_2B - \cdots) X_t = Z_t\] \[ MA(\infty): \quad \frac{1 + \theta_1B + \cdots + \theta_qB^q}{1 - \phi_1B - \cdots - \phi_pB^p}Z_t = (1 + \psi_1B + \psi_2B + \cdots) Z_t = X_t\] A partir d’aquí el models seran invertibles si el mòdul de totes les arrels del polinomi característic \(\theta_q(B) = 1 + \theta_1B + \cdots + \theta_qB^q\) és major que 1, és a dir, si \(\sum_{i\geq 0} \pi_i^2 < \infty\).
Per per altra banda, seran estacionaris si el mòdul de totes les arrels del polinomi característic \(\phi_q(B) = 1 - \phi_1B - \cdots - \phi_qB^q\) és major que 1, és a dir, si \(\sum_{i\geq 0} \psi_i^2 < \infty\).
En el cas del primer model, s’observa que es compleixen totes les condicions i, per tant, el \(\texttt{mod.1}\) és estacionari i invertible.
##
## Modul of AR Characteristic polynomial Roots: 1.086772 1.086772 1.086772 1.086772 1.086772 1.086772 1.086772 1.086772 1.086772 1.086772 1.086772 1.086772 1.675221 1.675221
##
## Modul of MA Characteristic polynomial Roots:
##
## Psi-weights (MA(inf))
##
## --------------------
## psi 1 psi 2 psi 3 psi 4 psi 5
## -0.712679068 0.151578740 0.145923872 -0.158009352 0.060612509
## psi 6 psi 7 psi 8 psi 9 psi 10
## 0.013106635 -0.030939044 0.017379286 -0.001361260 -0.005222667
## psi 11 psi 12 psi 13 psi 14 psi 15
## 0.004207147 -0.369553394 0.261873824 -0.054948029 -0.054153900
## psi 16 psi 17 psi 18 psi 19 psi 20
## 0.058174132 -0.022162680 -0.004934468 0.011413980 -0.006376192
##
## Pi-weights (AR(inf))
##
## --------------------
## pi 1 pi 2 pi 3 pi 4 pi 5 pi 6
## -0.7126791 -0.3563327 0.0000000 0.0000000 0.0000000 0.0000000
## pi 7 pi 8 pi 9 pi 10 pi 11 pi 12
## 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 -0.3684161
## pi 13 pi 14 pi 15 pi 16 pi 17 pi 18
## -0.2625624 -0.1312787 0.0000000 0.0000000 0.0000000 0.0000000
## pi 19 pi 20
## 0.0000000 0.0000000
En el cas del segon model, també es compleix tot i, per tant, també és invertible i estacionari.
##
## Modul of AR Characteristic polynomial Roots: 1.01494 1.01494 1.031881 1.031881 1.031881 1.01494 1.01494 1.031881 1.01494 1.01494 1.01494 1.01494 1.031881 1.031881 1.01494 1.01494 1.01494 1.01494 1.01494 1.01494 1.031881 1.031881 1.01494 1.031881 1.031881 1.01494 1.01494 1.031881 1.031881 1.031881 1.031881 1.01494 1.01494 1.031881 1.01494 1.031881 1.031881 1.01494 1.031881 1.031881 1.031881 1.031881 1.031881 1.01494 1.01494 1.031881 1.031881 1.784666 1.784666 1.01494
##
## Modul of MA Characteristic polynomial Roots:
##
## Psi-weights (MA(inf))
##
## --------------------
## psi 1 psi 2 psi 3 psi 4 psi 5
## -0.635389324 0.089751056 0.142465394 -0.118699998 0.030691060
## psi 6 psi 7 psi 8 psi 9 psi 10
## 0.017767293 -0.020925175 0.007717262 0.001666381 -0.003481778
## psi 11 psi 12 psi 13 psi 14 psi 15
## 0.001689093 -0.370760402 0.235046879 -0.032939177 -0.052868124
## psi 16 psi 17 psi 18 psi 19 psi 20
## 0.043933706 -0.011316081 -0.006603685 0.007748804 -0.002850158
##
## Pi-weights (AR(inf))
##
## --------------------
## pi 1 pi 2 pi 3 pi 4 pi 5 pi 6
## -0.6353893 -0.3139685 0.0000000 0.0000000 0.0000000 0.0000000
## pi 7 pi 8 pi 9 pi 10 pi 11 pi 12
## 0.0000000 0.0000000 0.0000000 0.0000000 0.0000000 -0.3707803
## pi 13 pi 14 pi 15 pi 16 pi 17 pi 18
## -0.2355899 -0.1164134 0.0000000 0.0000000 0.0000000 0.0000000
## pi 19 pi 20
## 0.0000000 0.0000000
Per últim, comparem els valors del ACF i el PACF de les dades amb els valors teòric. S’observa que, en el cas del model \(\texttt{mod.2}\), els valors teòrics s’aproximen gairebé perfectament als valors mostrals. En el cas del segon model també es podria dir el mateix. Per tant, ambdós models s’aproximen als valors de ACF/PACF de les mostres, potser una mica millor el \(\texttt{mod.2}\) (ja que té més coeficients per calcular els valors teòrics).
Per comprovar l’estabilitat dels models proposats, calculem els models de la serie ocultant les 12 últimes observacions, és a dir, l’últim període d’observacions. Així doncs, s’observa que el valor dels coeficients varia molt poc, de l’ordre de menys de 0.02 en gairebé tots els casos. Per tant, podem confirmar que els models són estables.
## ########## Model ARIMA(2,1,0)(1,1,0)12 amb i sense les 12 últimes observacions ##########
## ar1 ar2 sar1
## mod.1.full -0.712679068 -0.356332714 -0.368416056
## mod.1.cut -0.717347180 -0.361884118 -0.359686924
## abs.diff 0.004668112 0.005551404 0.008729132
## significance 1.000000000 1.000000000 1.000000000
## ########## Model ARIMA(2,1,0)(4,1,0)12 amb i sense les 12 últimes observacions ##########
## ar1 ar2 sar1 sar2 sar3
## mod.2.full -0.63538932 -0.313968537 -0.370780339 -0.1911898 0.014182477
## mod.2.cut -0.64580060 -0.319460181 -0.374558744 -0.2094321 0.002321698
## abs.diff 0.01041128 0.005491644 0.003778405 0.0182423 0.011860779
## significance 1.00000000 1.000000000 1.000000000 1.0000000 0.000000000
## sar4
## mod.2.full -0.329852718
## mod.2.cut -0.323641262
## abs.diff 0.006211457
## significance 1.000000000
A continuació s’avaluarà la capacitat de predicció dels dos models proposats fent-los predir el valor de les 12 útlimes observacions utilitzant la resta d’observacions conegudes.
## ###### Errors de predicció del model mod.1 ######
## ###### Errors de predicció del model mod.2 ######
Com es pot veure, les prediccions (en vermell a la gràfica) de les últimes 12 observacions són semblants i prou bones, ja que en amdós casos s’apropen força a la realitat. A més, el valor real de les observacions (en negre a la gràfica) queda dins l’interval de confiança (en blau a la gràfica) dels valors predits. Per tant, es pot concloure que els models tenen bona capacitat de predicció. A més, els errors de predicció (l’Error Quadràtic Mitjà i l’Error Absolut Mitjà) dels dos models són semblants i molt petits (> 0.05 en ambdós casos).
En definitiva, els dos presenten un comportament similar en la predicció de les últimes 12 observacions, però que el test d’independència ha sortit molt millor en el segon model, s’escull el segon model, el model \(ARIMA(2,1,1)(4,1,0)_{12}\). A més, com ja s’havia comentat abans, aquest model era el millor en AIC i loglikelihood.
A continuació, s’utilitza el model escollit \(ARIMA(0,1,1)(1,1,0)_{12}\) per predir el valor de la sèrie els 12 mesos posteriors a l’ultima dada que es té. Com es pot observar, el valor predit (en vermell a la gràfica) sembla prou raonable per 2 motius:
A més, els intervals de confiança també segueixen aquestes tendències estacionals.
## tl1 pr1 tu1
## Nov 2018 4.549899 4.549899 4.549899
## Dec 2018 3.846837 4.189916 4.563591
## Jan 2019 3.917671 4.290606 4.699042
## Feb 2019 3.995362 4.410566 4.868919
## Mar 2019 4.945079 5.526941 6.177267
## Apr 2019 6.457154 7.269534 8.184119
## May 2019 7.438742 8.439524 9.574947
## Jun 2019 7.942888 9.081850 10.384132
## Jul 2019 9.311565 10.719334 12.339936
## Aug 2019 9.580515 11.102785 12.866932
## Sep 2019 8.125041 9.476734 11.053296
## Oct 2019 6.786354 7.963653 9.345191
## Nov 2019 3.980613 4.698813 5.546594
Per acabar l’anàlisi d’aquesta serie, es centrarà l’atenció en la detecció i la correcció de possibles outliers en la serie. Aquests valors atípics poden ser de tres tipus diferents:
A continuació es mostren els outliers detectats, així com la seva influència sobre les dades i la data en què tenen aquest efecte. S’observa que tenim 10 valors atípics en total, dels quals la majoria són puntuals (6 són AO), 2 són TC i tenim 2 LS. L’outlier que més efecte ha tingut és del març del 2002, que ha tingut a més un efecte positiu, és a dir, ha fet créixer la sèrie, tot i només afectar a aquell període, ja que era era de tipus AO. En segon lloc, tenim un del tipus LS a l’abril del 2008. Aquest últim es podria associar perfectament a l’entrada en crisi econòmica del pais.
## Sigma^2 of the model with outliers:
## [1] 0.000959009
En el següent gràfic, es poden observar la gràfica amb els outliers (en negre) i la gràfica linealitzada, és a dir, sense outliers (en vermell). S’observa com hi ha outliers que han provocat que la sèrie tingui valors més baixos i outliers que han provocat que la sèrie tingui valors més alts. El fet que crida més l’atenció és que, a causa dels outliers, la sèrie des del 2005 (sobretot a partir del 2008) té valors més baixos del que hauria de tenir (s’observen els pics negres per sota dels vermells).
Per veure més clar l’efecte dels outliers, s’exposa la gràfica dels valors de la sèrie menys els valos de la sèrie linealitzada. Com es pot veure, l’abril del 2008 hi ha un outlier de tipus LS que fa que la sèrie agafi valors més petits des d’aquesta data en endavant. Crida l’atenció també els pics amunt i avall del principi de la sèrie, a les dates de març del 2002 i abril de 2002, que en només un més de diferència es va tenir una gran entrada turística el març i una baixa entrada turísica l’abril. Per últim, cal remarcar un outlier de tipus LS a l’octubre de 2001, que també fa que des de llavors la sèrie prengui valors inferiors.
Un cop eliminats els outliers de la sèrie, es calculen un altre cop les funcions ACF i PACF de la sèrie linealitzada. S’observa clarament que, pel que fa a la part regular, al ACF es té decreixement exponencial alternat durant tots els valors, tinguent valors infinits fora de la banda de confiança als valors inicials. Pel que fa al PACF, observem que els dos primers valos són encara més significants que en el cas del PACF de la sèrie sense linealitzar. També hi ha altres valors fora de la banda que poden associar-se al cas del 5%. Per tant, pel que fa a la part regular, igual que en el cas de la sèrie amb valors atípics, es confirma la hipòtesi que el model adequat és un AR(2).
Pel que fa a la part estacional, l’anàlisi és molt semblant al de la sèrie sense linealitzar: un ACF amb força valors fora de la banda de confiança, sobretot el quart valor (molt més que el primer) i un PACF on es podrien considerar significatius el primer, el tercer i el quart valor. Per tant, igual que en el cas de la sèrie sense linealitzar, proposem un AR(4) per la part estacional.
Ara bé, a diferència del que s’ha vist anteriorment, en aquest cas surten no significatius tant el coeficient de \(\texttt{sar2}\) com el de \(\texttt{sar3}\)
##
## Call:
## arima(x = logserie.lin, order = pdq.1, seasonal = list(order = PDQ.2, period = 12))
##
## Coefficients:
## ar1 ar2 sar1 sar2 sar3 sar4
## -0.6611 -0.3138 -0.1435 -0.1237 0.1143 -0.4575
## s.e. 0.0663 0.0662 0.0652 0.0726 0.0703 0.0684
##
## sigma^2 estimated as 0.0009259: log likelihood = 436.23, aic = -858.46
## ar1 ar2 sar1 sar2 sar3 sar4
## TRUE TRUE TRUE FALSE FALSE TRUE
Pel que fa a la validació del model per la sèrie linealitzada, s’observa en les gràfiques els mateixos anàlisis realitzats anteriorment, és a dir:
Es conclueix que es poden assumir les hipòtesis d’homogeneïtat en la variància dels residus (no patrons en les gràfiques de la seva variància i ACF i PACF dels residus al quadrat nuls), de normalitat dels residus (Q-Q plot amb relació lineal, histograma s’ajusta a la corba normal) i d’independència dels residus (p-values de Ljung-Box per sobre de 0.05 i ACF i PACF dels residus molt iguals).
Es pot dir que el model és causal i invertible, ja que totes les arrels dels polinomis característics tenen mòdul major que un.
El ACF i el PACF teòrics són molt semblants al ACF i PACF mostrals.
Per tant, es conclou que el model per la sèrie linealitzada és un model vàlid.
##
## --------------------------------------------------------------------
##
## Call:
## arima(x = logserie.lin, order = pdq.1, seasonal = list(order = PDQ.2, period = 12))
##
## Coefficients:
## ar1 ar2 sar1 sar2 sar3 sar4
## -0.6611 -0.3138 -0.1435 -0.1237 0.1143 -0.4575
## s.e. 0.0663 0.0662 0.0652 0.0726 0.0703 0.0684
##
## sigma^2 estimated as 0.0009259: log likelihood = 436.23, aic = -858.46
##
## Modul of AR Characteristic polynomial Roots: 1.010509 1.022373 1.022373 1.022373 1.010509 1.010509 1.022373 1.010509 1.010509 1.010509 1.010509 1.010509 1.010509 1.022373 1.022373 1.022373 1.022373 1.022373 1.022373 1.010509 1.010509 1.010509 1.010509 1.022373 1.022373 1.022373 1.022373 1.010509 1.022373 1.022373 1.010509 1.010509 1.010509 1.010509 1.010509 1.022373 1.022373 1.022373 1.022373 1.022373 1.022373 1.010509 1.010509 1.010509 1.022373 1.022373 1.010509 1.010509 1.785016 1.785016
##
## Modul of MA Characteristic polynomial Roots:
##
## Psi-weights (MA(inf))
##
## --------------------
## psi 1 psi 2 psi 3 psi 4 psi 5
## -0.6611482178 0.1232716501 0.1259974395 -0.1219912125 0.0411105666
## psi 6 psi 7 psi 8 psi 9 psi 10
## 0.0111061928 -0.0202451983 0.0098994502 -0.0001911432 -0.0029805221
## psi 11 psi 12 psi 13 psi 14 psi 15
## 0.0020305563 -0.1439246207 0.0945182259 -0.0173204886 -0.0182126923
## psi 16 psi 17 psi 18 psi 19 psi 20
## 0.0174772433 -0.0058390801 -0.0016246536 0.0029067047 -0.0014118727
##
## Pi-weights (AR(inf))
##
## --------------------
## pi 1 pi 2 pi 3 pi 4 pi 5 pi 6
## -0.66114822 -0.31384532 0.00000000 0.00000000 0.00000000 0.00000000
## pi 7 pi 8 pi 9 pi 10 pi 11 pi 12
## 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 -0.14351754
## pi 13 pi 14 pi 15 pi 16 pi 17 pi 18
## -0.09488637 -0.04504231 0.00000000 0.00000000 0.00000000 0.00000000
## pi 19 pi 20
## 0.00000000 0.00000000
##
## Shapiro-Wilk normality test
##
## data: resid(model)
## W = 0.97956, p-value = 0.002271
En relació a l’estabilitat del model per la sèrie linealitzada, s’observa que el valor dels coeficients varia molt poc, de l’ordre de menys de 0.02 en gairebé tots els casos. Per tant, podem confirmar que és estable.
##
## Call:
## arima(x = logserie1.lin, order = pdq.1, seasonal = list(order = PDQ.2, period = 12))
##
## Coefficients:
## ar1 ar2 sar1 sar2 sar3 sar4
## -0.6611 -0.3138 -0.1435 -0.1237 0.1143 -0.4575
## s.e. 0.0663 0.0662 0.0652 0.0726 0.0703 0.0684
##
## sigma^2 estimated as 0.0009259: log likelihood = 436.23, aic = -858.46
##
## Call:
## arima(x = logserie2.lin, order = pdq.1, seasonal = list(order = PDQ.2, period = 12))
##
## Coefficients:
## ar1 ar2 sar1 sar2 sar3 sar4
## -0.6778 -0.3276 -0.1295 -0.1432 0.1111 -0.4494
## s.e. 0.0676 0.0682 0.0671 0.0742 0.0713 0.0705
##
## sigma^2 estimated as 0.000911: log likelihood = 415.46, aic = -816.91
Pel que fa a la capacitat de predicció del model per la sèrie linealitzada, es pot observar que és millor que el model per la sèrie sense linealitzar, ja que s’ajusta molt més (de fet, tenim tant el EQM com el EAM més baix en aquest cas). De fet, en les zones de pujada i baixada els intervals de confiança estan gairebé a sobre del valor real de la sèrie. En els valors més alts és on es té més error, fet que no extranya, ja que és en els mesos de l’any on més ha anat variant el valor de la sèrie al llarg dels anys
## tl pr tu serie error
## Dec 2017 3.982530 3.982530 3.982530 3.982530 0.000
## Jan 2018 3.807304 4.039328 4.285492 4.110137 0.071
## Feb 2018 3.999645 4.256121 4.529043 4.224826 -0.031
## Mar 2018 4.907500 5.251276 5.619135 5.383687 0.132
## Apr 2018 6.601429 7.123301 7.686429 6.770845 -0.352
## May 2018 7.740691 8.391079 9.096113 8.084173 -0.307
## Jun 2018 8.036484 8.757653 9.543537 8.541181 -0.216
## Jul 2018 10.022139 10.978290 12.025662 9.979779 -0.999
## Aug 2018 9.805936 10.789681 11.872117 10.201456 -0.588
## Sep 2018 8.251762 9.120408 10.080496 8.924326 -0.196
## Oct 2018 6.846393 7.599599 8.435669 7.635569 0.036
## Nov 2018 4.196912 4.677580 5.213299 4.549899 -0.128
## Dec 2018 3.748080 4.193886 4.692716 NA NA
## [1] 0.04120862
## [1] 0.03142105
Com a última part d’aquest anàlisi, es realitza una comparació entre els valors predits pel model per la sèrie sense linealitzar i els valors predits per la sèrie linealitzada (és a dir, sense outliers). Tot i que els valors són força semblants, el que crida més l’atenció és que l’interval de confiança d’aquests valors és més estret en el cas del model per la sèrie linealitzada. Aquest fet es deu a que la variància dels valors sense outliers és molt més petita i, per tant, hi ha més marge d’acotació a l’hora de calcular tant els valors com els intervals. Per tant, podem dir que el model sense outliers és millor
## previs1.tl1 previs1.pr1 previs1.tu1 previs2.tl2 previs2.pr2
## Nov 2018 4.549899 4.549899 4.549899 4.549899 4.549899
## Dec 2018 3.846837 4.189916 4.563591 3.900358 4.140052
## Jan 2019 3.917671 4.290606 4.699042 4.044126 4.306979
## Feb 2019 3.995362 4.410566 4.868919 4.102884 4.394829
## Mar 2019 4.945079 5.526941 6.177267 5.164192 5.578496
## Apr 2019 6.457154 7.269534 8.184119 6.600659 7.164904
## May 2019 7.438742 8.439524 9.574947 7.634515 8.332016
## Jun 2019 7.942888 9.081850 10.384132 8.264364 9.067381
## Jul 2019 9.311565 10.719334 12.339936 9.476601 10.445786
## Aug 2019 9.580515 11.102785 12.866932 9.821204 10.875595
## Sep 2019 8.125041 9.476734 11.053296 8.456203 9.405362
## Oct 2019 6.786354 7.963653 9.345191 7.056392 7.881295
## Nov 2019 3.980613 4.698813 5.546594 4.132904 4.634817
## previs2.tu2
## Nov 2018 4.549899
## Dec 2018 4.394477
## Jan 2019 4.586916
## Feb 2019 4.707548
## Mar 2019 6.026037
## Apr 2019 7.777382
## May 2019 9.093241
## Jun 2019 9.948425
## Jul 2019 11.514091
## Aug 2019 12.043183
## Sep 2019 10.461059
## Oct 2019 8.802630
## Nov 2019 5.197685
Per acabar de confirmar-ho, es mostren tota una sèrie de mesures de bondat d’ajust dels models. Sobretot ens crida l’atenció el AIC i el BIC, on el model sense outliers és clarament millor. Aquest model també té millor RMSPE i MAPE.
Així doncs, un com realitzat aquest anàlisi, es conclou que la presència de valors atípics en una sèrie pot influir (i molt) en les previsions que pugui fer un model basant-se en ella. Per tant, es confirma la importància de la seva detecció i correcció. Pel que fa a les previsions de la sèrie, sembla que la tendència general de creixement es mantindrà, així com també el patró estacional (és a dir, que Espanya tenint un munt de turistes a l’estiu).